Thị giác máy là gì? Các công bố khoa học về Thị giác máy

Thị giác máy, một lĩnh vực trí tuệ nhân tạo, tập trung vào mô phỏng khả năng nhìn và phân tích hình ảnh của con người thông qua công nghệ tiên tiến. Bắt đầu từ những năm 1960, thị giác máy đã phát triển vượt bậc nhờ học sâu. Các thành phần chính bao gồm xử lý hình ảnh, nhận diện, trích xuất và phân tích đặc trưng. Thị giác máy được ứng dụng rộng rãi trong công nghiệp, y tế, giao thông và thương mại điện tử. Dù đạt nhiều thành tựu, thị giác máy vẫn đối mặt thách thức nhưng tiếp tục phát triển mạnh mẽ trong tương lai.

Thị Giác Máy: Khái Niệm và Ứng Dụng

Thị giác máy (Machine Vision) là một lĩnh vực thuộc trí tuệ nhân tạo (AI), tập trung vào việc mô phỏng và tái tạo khả năng nhìn và phân tích hình ảnh của con người. Thông qua việc sử dụng các thuật toán và công nghệ tiên tiến, thị giác máy giúp máy tính nhận diện, phân tích và đưa ra quyết định dựa trên dữ liệu hình ảnh hoặc video.

Lịch Sử Phát Triển

Thị giác máy bắt đầu phát triển từ những năm 1960 với các nghiên cứu ban đầu về nhận dạng mô hình và trích xuất đặc điểm từ hình ảnh. Trong những thập kỷ qua, với sự phát triển của khoa học máy tính và công nghệ xử lý ảnh, thị giác máy đã đạt được những bước tiến đáng kể. Đặc biệt, sự bùng nổ của học sâu (Deep Learning) vào những năm 2010 đã mở ra một kỷ nguyên mới cho thị giác máy, giúp cải thiện đáng kể độ chính xác và khả năng ứng dụng.

Các Thành Phần Chính Trong Thị Giác Máy

Thị giác máy bao gồm nhiều thành phần quan trọng, mỗi thành phần đóng vai trò thiết yếu trong việc hoàn thiện hệ thống:

  • Xử lý hình ảnh: Quá trình cải thiện chất lượng hình ảnh và chuẩn bị dữ liệu để nhận diện và phân tích.
  • Nhận diện hình ảnh: Xác định và phân loại đối tượng hoặc mô hình trong hình ảnh.
  • Trích xuất đặc trưng: Lấy ra các thông tin quan trọng từ hình ảnh để phục vụ cho các bước xử lý tiếp theo.
  • Phân tích ảnh: Đưa ra các kết luận hoặc quyết định dựa trên thông tin đã trích xuất.

Ứng Dụng Trong Thực Tiễn

Thị giác máy có ứng dụng rộng rãi trong nhiều lĩnh vực, từ công nghiệp đến y tế và tiêu dùng:

  • Công nghiệp sản xuất: Dùng để kiểm tra chất lượng sản phẩm, quản lý vận hành dây chuyền sản xuất.
  • Y tế: Thị giác máy hỗ trợ trong việc phân tích hình ảnh y khoa như MRI, X-quang, giúp chuyên gia y tế chẩn đoán bệnh chính xác hơn.
  • Giao thông vận tải: Hỗ trợ trong việc nhận diện biển số xe, quản lý giao thông và thực hiện giám sát an ninh.
  • Thương mại điện tử: Hỗ trợ trong việc nhận diện sản phẩm, cá nhân hóa trải nghiệm mua sắm trực tuyến.

Thách Thức và Tương Lai Phát Triển

Mặc dù đạt được nhiều thành tựu, thị giác máy vẫn đối mặt với nhiều thách thức, chẳng hạn như xử lý hình ảnh trong điều kiện ánh sáng kém, nhận diện đối tượng từ nhiều góc khác nhau hoặc trong môi trường phức tạp. Tương lai của thị giác máy được kỳ vọng sẽ tiếp tục phát triển mạnh mẽ với sự tối ưu hóa các mô hình AI, cải thiện các thuật toán học sâu và tăng cường khả năng xử lý trong thời gian thực.

Thị giác máy đang trở thành một phần không thể thiếu trong cuộc cách mạng công nghiệp 4.0, mở ra nhiều cơ hội mới và thay đổi cách chúng ta sống và làm việc.

Danh sách công bố khoa học về chủ đề "thị giác máy":

Ma trận cơ bản: Lý thuyết, thuật toán và phân tích độ ổn định Dịch bởi AI
Springer Science and Business Media LLC - Tập 17 - Trang 43-75 - 1996
Trong bài báo này, chúng tôi phân tích chi tiết hình học của một cặp camera, tức là một thiết lập stereo. Trái ngược với những gì đã được thực hiện trong quá khứ và vẫn đang được sử dụng hiện nay, chẳng hạn như trong phân tích stereo hoặc chuyển động, chúng tôi không giả định rằng các tham số nội tại của các camera là đã biết (tọa độ của các điểm chính, tỷ lệ pixel và tiêu cự). Điều này quan trọng vì hai lý do. Thứ nhất, nó thực tế hơn trong các ứng dụng mà các tham số này có thể thay đổi tùy theo nhiệm vụ (thị giác chủ động). Thứ hai, trường hợp tổng quát mà chúng tôi xem xét ở đây, nắm bắt tất cả thông tin liên quan cần thiết để thiết lập sự tương ứng giữa hai cặp hình ảnh. Thông tin này về cơ bản là về chiếu và được ẩn giấu một cách gây nhầm lẫn trong định dạng thường được sử dụng của ma trận Essential được giới thiệu bởi Longuet-Higgins (1981). Bài báo này làm rõ bản chất về chiếu của vấn đề tương ứng trong stereo và cho thấy rằng hình học epipolar có thể được tóm tắt trong một ma trận 3×3 có hạng 2 mà chúng tôi đề xuất gọi là ma trận cơ bản. Sau phân tích lý thuyết này, chúng tôi bắt đầu nhiệm vụ ước lượng ma trận cơ bản từ các sự tương ứng điểm, một nhiệm vụ có tầm quan trọng thực tiễn. Chúng tôi phân tích lý thuyết và so sánh thực nghiệm sử dụng dữ liệu tổng hợp và thực tế, nhiều phương pháp ước lượng khác nhau. Vấn đề về độ ổn định của việc ước lượng được nghiên cứu từ hai góc độ bổ sung. Đầu tiên, chúng tôi chỉ ra rằng có một mối quan hệ thú vị giữa ma trận cơ bản và các mặt phẳng ba chiều gây ra các homography giữa các hình ảnh và tạo ra sự không ổn định trong các quy trình ước lượng. Thứ hai, chúng tôi chỉ ra một mối quan hệ sâu sắc giữa sự không ổn định của quy trình ước lượng và sự hiện diện trong cảnh các bề mặt gọi là bề mặt quan trọng đã được nghiên cứu trong bối cảnh phân tích chuyển động. Cuối cùng, chúng tôi kết luận bằng việc nhấn mạnh rằng chúng tôi tin rằng ma trận cơ bản sẽ đóng một vai trò quan trọng trong các ứng dụng tương lai của Thị giác máy tính ba chiều bằng cách tăng cường tính linh hoạt, độ ổn định và do đó khả năng áp dụng vào các vấn đề thực tế khó khăn.
#ma trận cơ bản #hình học stereo #ước lượng #thị giác máy tính ba chiều #ổn định
Hệ thống theo dõi và báo động nhịp thở dựa trên thị giác máy tính
Journal of Technical Education Science - Số 78B - Trang 26-35 - 2023
Breathing rate is one of the most important vital signals for monitoring health status and reflecting conditions of dangerous diseases. Previous contactless breath monitoring methods were more convenient than contact methods, but they were not suitable for the actual sleeping environment because of the narrow field of vision (FoV). This study proposed a breathing rate monitoring strategy using a mono camera to track and detect sleep apnea phenomena. Breathing rates were first tracked among consecutive image frames. The human body area was then isolated and magnified using a deep neural network (DNN) model before applying the optical flow algorithm to extract and monitor the up and down changes caused by respiration. The most variated directions of the body feature’s motions were detected based on the Principal Component Analysis (PCA) method. Breathing rate was the number of times the signal amplitude peaks per minute. The comparison between predicted values and manually estimated was used for evaluating the accuracy of the method. The accuracy of our method in various light, position, and distance conditions is 2 breaths/minute (<10%) for children and less than 1 breath/minute (<5%) for adults. The study has two main contributions: (1) monitoring breathing rate at home gives comfortable feelings to patients and caregivers, expanding the potential of applying modern technology to clinics, (2) the study has solved the problem of tracking small movements in videos with relatively large FoV in real-time. Perspectively, we will be employed the method in a home-based respiratory rate monitoring system.
#Computer vision-based #breathing rate detection #sleep apnea #optical flow #Principal component analysis
SO SÁNH ĐỘ CHÍNH XÁC CỦA VIỆC ĐÁNH GIÁ CHỈ SỐ HUYẾT THANH HỌC BẰNG PHƯƠNG PHÁP CẢM QUAN THỊ GIÁC QUA BẢNG MÀU VỚI PHƯƠNG PHÁP PHÂN TÍCH TỰ ĐỘNG TRÊN MÁY SINH HÓA - MIỄN DỊCH
Tạp chí Y học Việt Nam - Tập 527 Số 1 - 2023
Giới thiệu: Chỉ số huyết thanh học được đánh giá bằng cảm quan thị giác tuy đơn giản, ít tốn kém, sử dụng tại nhiều phòng xét nghiệm nhưng rất chủ quan và độ chính xác chưa được xác thực. Việc xác định độ chính xác của phương pháp đánh giá bằng mắt và bằng máy là cần thiết để quản lý chất lượng mẫu tiền phân tích. Mục tiêu: Xác định độ chính xác của việc đánh giá chỉ số tán huyết (H), chỉ số vàng huyết thanh do tăng bilirubin (I) và chỉ số đục huyết thanh do tăng lipid máu (L) ở các mức nồng độ, bằng phương pháp cảm quan thị giác qua bảng màu so với phương pháp phân tích tự động trên máy sinh hoá-miễn dịch Architect Ci8200 (Abbott). Đối tượng và phương pháp nghiên cứu: 420 mẫu huyết thanh được thu thập từ 07/2020 đến 11/2020 tại khoa Xét Nghiệm, bệnh viện Nguyễn Tri Phương. Mẫu được đánh giá ba chỉ số huyết thanh song song bằng hai phương pháp cảm quan thị giác và bằng máy. Các kết quả được ghi nhận độc lập. Độ chính xác của hai phương pháp được đánh giá bằng các chỉ số: độ chính xác, độ nhạy, độ đặc hiệu, giá trị dự báo dương, giá trị dự báo âm. Kết quả: Trong 420 mẫu, có 121 mẫu không có chỉ số huyết thanh nào (28,8%), 260 mẫu có một chỉ số huyết thanh (61,9%) và 39 mẫu có nhiều hơn một chỉ số huyết thanh (9,3%). Đối với nhóm mẫu chỉ có một chỉ số huyết thanh: độ chính xác khi phân biệt giữa mức "có và không có" (0-1234) giữa phương pháp cảm quan thị giác và hệ thống máy cho chỉ số H, I và L lần lượt là 0,87; 0,72; 0,84. Đối với chỉ số H, độ chính xác giữa hai phương pháp ở các mức nồng độ 0-1; 1-2, 2-3, 3-4 lần lượt là 0,86; 0,76; 0,59; 0,53. Đối với chỉ số I, độ chính xác giữa hai phương pháp ở các mức nồng độ 0-1; 1-2, 2-3, 3-4 lần lượt là 0,72; 0,58; 0,50; 0,40. Đối với chỉ số L, độ chính xác giữa hai phương pháp ở các mức nồng độ 0-1; 1-2, 2-3, 3-4 lần lượt là 0,84; 0,57; 0,33; 0,50. Đối với mẫu có hai chỉ số trở lên, do sự tương tác của các chỉ số trong cùng mẫu, không xác định được độ chính xác giữa hai phương pháp. Kết luận: So với phương pháp đánh giá tự động bằng máy phương pháp đánh giá các chỉ số huyết thanh học bằng cảm quan thị giác có độ chính xác tốt trong việc phân biệt mẫu có hoặc không có chỉ số huyết thanh. Ở các mức nồng độ khác nhau đối với cùng chỉ số huyết thanh, phương pháp cảm quan thị giác ít chính xác trong việc phân loại.
#chỉ số huyết thanh #chỉ số tán huyết #chỉ số vàng do tăng bilirubin #chỉ số đục do tăng lipid
Ứng dụng mô hình học sâu thích ứng trong bài toán phát hiện phương tiện giao thông
Phân tích hình ảnh để phát hiện phương tiện giao thông là một bài toán trong lĩnh vực thị giác máy tính. Bài toán này có nhiều ứng dụng hữu ích trong các hệ thống xe tự hành, quản lý giao thông và đo lưu lượng xe tại các địa điểm, các tuyến đường quan trọng. Có nhiều cách tiếp cận để giải quyết bài toán này như biểu diễn đường viền, trích chọn đặc trưng, học máy, mạng học sâu. Trong bài báo này, tác giả đề xuất giải pháp sử dụng mô hình học thích ứng trên nền mạng học sâu để giải quyết bài toán. Để đánh giá hiệu quả của giải pháp, tác giả đã xây dựng hệ thống thử nghiệm dựa trên mạng học sâu YOLO3. Hệ thống được thử nghiệm trên bộ dữ liệu chuẩn và bộ dữ liệu tự thu thập. Kết quả cho thấy, hệ thống đạt được độ chính xác cao và khả thi khi áp dụng vào các ứng dụng thực tế.
#Phát hiện phương tiện giao thông #mạng học sâu #học thích ứng #thị giác máy tính
Thiết kế và điều khiển robot thu hoạch khóm
Bài báo đề cập đến việc phát triển một hệ thống Robot thu hoạch trái khóm tự động. Hệ thống này bao gồm khối thị giác máy, hai tay máy Robot 3DOF dạng Gantry được lắp đặt trên khung công tác có thể di chuyển của máy với cơ cấu tác động cuối được thiết kế chuyên dụng và bộ phận điều khiển thu hoạch dựa trên ảnh phân tích. YOLOv3 (You only look once version 3) - một bộ nhận dạng dựa trên cơ sở mạng Nơ ron tích chập CNN được sử dụng để phát hiện và nhận dạng trái khóm đủ điều kiện thu hoạch. Các kết quả thử nghiệm off -line trên cơ sở dữ liệu 168 ảnh chưa được huấn luyện cho thấy mô hình huấn luyện có độ chính xác trung bình là 90,82%. Hệ thống được tiến hành thử nghiệm thu hoạch tại cánh đồng khóm thuộc tỉnh Tiền giang. Độ chính xác thu hoạch đạt được là 80% với khoảng 25 chu kỳ cắt và 12 giây là thời gian của một chu trình thu hoạch.
#Robot thu hoạch #khóm #học sâu #YOLO #thị giác máy
THỰC HIỆN HIỆU CHỈNH CAMERA ĐỂ KHỬ HIỆN TƯỢNG MÉO ẢNH TRONG CÁC PHÉP ĐO KÍCH THƯỚC SỬ DỤNG CÔNG NGHỆ THỊ GIÁC MÁY
Bài báo này sẽ trình bày việc thực hiện hiệu chỉnh camera để khử hiện tượng méo ảnh do sự biến dạng ống kính quang học (lens) gây ra và đánh giá kết quả của việc thực hiện đó trong triển khai thực tế. Để thực hiện hiệu chỉnh camera, bài báo sẽ xây dựng mô hình toán học của camera và sử dụng mô hình đó để kiểm tra với thiết bị thực.
#thị giác máy #biến dạng ống kính #hiệu chỉnh camera
PHƯƠNG PHÁP ƯỚC LƯỢNG GÓC NHÌN DỰA TRÊN ĐIỂM 3D ĐẶC TRƯNG KHUÔN MẶT VÀ ỨNG DỤNG GIÁM SÁT THI TRỰC TUYẾN
Ước lượng góc nhìn khuôn mặt (HPE) là một bài toán phức tạp đòi hỏi sự kết hợp giữa xử lý hình ảnh, thị giác máy tính và kỹ thuật học máy với các phương pháp hiện nay dựa trên mạng nơron tích chập (CNN) để xác định ánh xạ giữa không gian ảnh 2D và mô hình 3D khuôn mặt và xác định các góc nhìn. HPE được ứng dụng trong nhiều vấn đề thực tiễn và có ý nghĩa cao như các giám sát an ninh, phát hiện sự tập trung của lái xe, giám sát người học và thi trực tuyến,... Nghiên cứu này sử dụng mô hình CNN hiện đại để phát hiện các điểm đặc trưng khuôn mặt và đề xuất một phương pháp ước lượng góc nhìn khuôn mặt sử dụng thuật toán rừng ngẫu nhiên dựa trên các điểm đặc trưng 3D của khuôn mặt từ ảnh 2D để xác định góc nhìn của khuôn mặt trên ảnh đó. Kết quả thử nghiệm của phương pháp đề xuất trên bốn tập dữ liệu phổ biến đạt chất lượng tốt, cho sai số thấp nhất ở hai trong số 4 tập dữ khi so sánh các phương pháp. Chúng tôi đưa ra một thiết kế tích hợp giữa phương pháp đề xuất với hệ thống quản lý học tập trực tuyến nhằm hỗ trợ giám sát và đánh giá sự tập trung tham gia học tập và làm bài thi của người học.
#Giám sát thi trực tuyến #thị giác máy tính #mạng nơron tích chập #hồi quy rừng ngẫu nhiên
Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễu
Thuật toán Faster R-CNN được đánh giá là mô hình nhận dạng khá tốt về độ chính xác và tốc độ phát hiện. Đã có nhiều nghiên cứu đánh giá về độ chính xác mô hình này với các mô hình khác. Tuy nhiên, các kết quả đó được thực hiện với ảnh đưa vào nhận dạng không bị nhiễu. Nghiên cứu này để đánh giá về độ chính xác của mô hình ở trạng thái bình thường và nhiễu. Để thực hiện việc này, tác giả đã huấn luyện cho mô hình nhận dạng 10 loài hoa và sau đó cho nhận dạng với 4 trạng thái khác nhau: Ảnh có ánh sáng tốt; ảnh bị che khuất 1/3; 1/2; ảnh thiếu ánh sáng; phân tích phương sai ANOVA (Analysis of variance) và trắc nghiệm sự khác biệt nhỏ nhất LSD (Least Significant Difference) bằng phần mềm SPSS 20.0 để đánh giá độ chính xác trong 4 trạng thái. Kết quả cho thấy, sự khác biệt về độ chính xác trong 4 trạng thái rất có ý nghĩa về mặt thống kê; độ chính xác đạt 99,28%, 78,46%, 40,36% và 62,38% tương ứng với 4 trạng thái ở trên.
#deep learning #Trí tuệ nhân tạo #thị giác máy tính #nhận dạng đối tượng #xử lý ảnh
Phát hiện drone nhiều kích thước sử dụng mạng YOLOv5
Ngày nay, máy bay không người lái được sử dụng rộng rãi với nhiều mục đích khác nhau. Với công nghệ ngày càng hiện đại, được trang bị nhiều chức năng cao cấp, linh hoạt với thiết kế nhỏ gọn mà giá thành lại không quá đắt. Drone được sử dụng trong nhiều lĩnh vực với nhiều mục đích khác nhau, đặc biệt là trong lĩnh vực quân sự, các thế lực thù địch sử dụng nó để thăm dò địa hình, mang vật liệu nổ trái phép, có thể đe dọa đến an ninh. Thị giác máy tính có thể được áp dụng để phát hiện một cách hiệu quả máy bay không người lái bất hợp pháp trong nhiều điều kiện khác nhau và các kích thước đa dạng của máy bay không người lái. Một hệ thống dựa trên máy tính sử dụng camera hiện đại kết hợp với một mô hình thuật toán có thể giải quyết tốt bài toán phức tạp trong phát hiện máy bay không người lái. Bài báo này đề xuất một phương pháp tiếp cận mạng nơ-ron phức tạp mới nổi đó là Yolov5. Với phương pháp này, chúng tôi đã được một kết quả hết sức mong đợi (0,993 cho @0,5IOU), đáp ứng được yêu cầu trong bài toán phát hiện đối tượng.
#Phát hiện máy bay không người lái; Thị giác máy tính; Yolov5; Mạng nơron phức tạp; IoU.
Quy hoạch quỹ đạo cho Robot di động dựa trên thị giác máy tính
Bài báo giới thiệu thuật toán quy hoạch quỹ đạo cho robot di động hoạt động trong nhà dựa trên thị giác máy tính. Thuật toán được xây dựng nhằm giải quyết những vấn đề cơ bản mà robot gặp phải trong quá trình di chuyển bao gồm định hướng, định vị trí, tránh vật cản và các bài toán nhận dạng như nhận dạng điểm mốc, cửa và vật thể đích. Các thuật toán xử lý ảnh được hỗ trợ bằng các hàm từ thư viện OpenCV. Kết quả của thuật toán được áp dụng trên mô hình robot thực nghiệm điều khiển theo cơ chế client/server. Chương trình xử lý và điều khiển robot thực nghiệm được viết trên nền mã nguồn mở điều khiển robot thông dụng Player/Satge. Kết quả thực nghiệm cho thấy với thông tin từ camera, robot có thể di chuyển đến vật thể đích khi biết trước vị trí của vật thể đích và các cột mốc quan trọng trên đường di chuyển.
#OpenCV #Player/Stage #robot di động #thị giác máy tính #quy hoạch quỹ đạo
Tổng số: 35   
  • 1
  • 2
  • 3
  • 4